202303.00705v1 


chinaXiv 


SA 
总 论 
General Overview 


ChinaXiv 合 作 期 刊 


科学 大 数据 
一 一 国家 大 数据 战略 的 基石 


郭 华东 


中 国 科学 院 遥 感 与 数字 地 球 研 究 所 北京 100094 


摘要 作为 人 类 的 新 型 战略 资源 ， 大 数据 已 成 为 知识 经 济 时 代 的 战略 高 地 。 其 少量 依赖 因果 关系 、 主 要 依靠 数据 
相关 性 发 现 知识 的 新 模式 ， 使 得 其 成 为 继 经 验 、 理 论 和 计算 模式 之 后 的 数据 密集 型 科学 范式 的 典型 代表 ， 带 来 了 
科研 方法 论 的 变革 ， 正 成 为 科学 发 现 的 新 引擎 。 科 学 大 数据 作为 大 数据 的 重要 分 支 ， 具 有 不 可 重复 性 、 高 度 不 确 
定性 、 高 维 性 及 计算 分 析 高 度 复杂 性 的 内 部 特征 ， 以 及 在 数据 内 容 、 数 据 体 量 、 数 据 获 取 、 数 据 分 析 等 方面 的 外 
部 特征 ， 这 给 科学 大 数据 的 处 理 技术 与 方法 提出 了 新 的 挑战 。 在 以 上 分 析 基 础 上 ， 文 章 提 出 了 科学 认 知 科学 大 数 
据 ， 建 设 科 学 大 数据 基础 设施 ， 建 立 科 学 数据 研究 中 心 ， 以 及 构建 科学 大 数据 学 术 平 台 等 建议 。 
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1 蓬勃 发 展 的 大 数据 


2013 年 7 月 17 日 ,习近平 总 书记 指出 : “浩瀚 的 数 
据 海洋 就 如 同 工 业 社会 的 石油 资源 ， 草 含 着 巨大 生产 力 
和 商机 。 谁 掌握 了 大 数据 技术 ， 谁 就 掌握 了 发 展 的 资源 
和 主动 权 。” 大 数据 已 成 为 信息 主权 的 一 种 表现 形式 ， 
将 是 继 边防 、 海 防 、 空 防 之 后 大 国 博弈 的 另 一 个 空间 "…。 
大 数据 正在 改变 人 类 生活 和 对 世界 的 深层 理解 。 

第 二 次 工业 革命 的 爆发 ， 导 致 以 文字 为 载体 的 数据 
量 约 每 10 年 翻 一 番 ; 从 工业 化 时 代 进 入 信息 化 时 代 ， 数 
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据 量 每 3 年 翻 一 番 。 当 前 ， 新 一 轮 信 息 技 术 革命 与 人 类 
社会 活动 交汇 融合 ， 半 结构 化 、 非 结构 化 数据 的 大 量 涌 
现 ， 数 据 的 产生 已 不 受 时 间 和 空间 的 限制 ， 引 发 了 数据 
爆炸 式 增 长 ， 数 据 类 型 繁多 上 且 复 杂 ， 已 经 超越 了 传统 数 
据 管理 系统 和 处 理 模式 的 能 力 范 围 户 ， 人 类 正在 开启 大 数 
据 时 代 新 航程 。 据 国际 数据 公司 (IDC ) 发 布 的 2017 年 
大 数据 白皮书 预测 ，2025 年 全 球 大 数据 规模 将 增长 
至 163ZB， 相 当 于 2016 年 的 10 倍 ， 大 数据 继续 表现 出 更 
为 强健 的 增长 态势 中 。 中 国 拥有 的 数据 在 国际 上 举 足 轻 
3E, 截至 2012 年 ,已 占 全 球 的 13%， 预 计 到 2020 年 将 产 
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ja 2016 年 全 球 数据 总 量 为 16ZB， 预 算 到 2025 年 数 
130 据 量 将 增长 10 倍 ， 达 到 1632B. 


16 0: . 
一 
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Ej 1 2016 一 2025 年 的 全 球 数据 量 增长 情况 外 


生 全 球 20% 的 数据 外 。 

从 大 数据 搜索 热度 数据 可 清晰 看 出 近年 来 全 球 对 大 
数据 的 关注 程度 。 国 际 上 对 大 数据 的 关注 度 在 2012 年 之 
前 处 于 较 低 水 平 ，2012 一 2015 年 对 大 数据 的 关注 度 飞速 
增长 ，2016 年 至 今 保持 接近 100 的 关注 度 。 
国际 上 ， 从 联合 国 到 各 国政 府 竞相 重视 大 数据 发 
展 ， 在 我 国 ， 大 数据 被 列 为 国家 战略 后 发 展 迅猛 。 全 球 
大 数据 的 发 展 方兴未艾 ， 大 数据 已 经 开始 显著 地 影响 全 
球 的 生产 、 流 通 、 分 配 和 消费 方式 ， 它 正在 改变 人 类 的 
生产 方式 、 生 活 方式 、 经 济 运行 机 制 和 国家 治理 模式 ， 
它 是 知识 驱动 下 经 济 时 代 的 战略 制高点 ， 是 国家 和 人 类 
的 新 型 战略 资源 。 


2 科学 大 数据 的 认识 

作为 大 数据 的 一 个 分 支 ， 科 学 大 数据 正在 成 为 科 
学 发 现 的 新 型 驱动 力 ， 引 起 有 关 国 家 和 科技 界 的 高 度 重 
视 。 欧 盟 提 出 “科学 是 一 项 全 球 性 事业 ， 而 科研 数据 是 
全 球 的 资产 ”的 理念 中 。 美 国 的 “从 大 数据 到 知识 ” 计 
划 、 欧 盟 的 “数据 价值 链 战 略 计 划 ”、 英 国 的 “科研 数 
据 之 春 ” 计 划 、 澳 大 利 亚 的 “大 数据 知识 发 现 ” 项 目 、 
欧洲 “地 平 线 2020” 计 划 的 “数据 驱动 型 创新 ”课题 ， 
均 聚 焦 于 从 海量 和 复杂 的 数据 中 获取 知识 的 能 力 ， 深 入 
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研究 基于 大 数据 价值 链 的 创新 机 制 ， 倡 导 大 数据 驱动 的 
科学 发 现 模式 。 大 数据 的 影响 已 触及 自然 科学 、 社 会 科 
学 、 人 文科 学 和 工程 科学 的 各 个 研究 领域 ， 不 同 领域 的 
大 数据 研究 中 心 陆续 成 立 "。 我 国 部 署 了 一 系列 大 数据 科 
技 项 目 ， 组 建 了 不 同 研究 方向 的 大 数据 实验 室 ， 中 国 科 
学 院 推出 了 “科学 大 数据 工程 ”计划 。 

科学 大 数据 具有 数据 密集 型 范式 的 特点 ， 它 具有 
数据 的 不 可 重复 性 、 数 据 的 高 度 不 确定 性 、 数 据 的 高 
维特 性 、 数 据 分析 的 高 度 计算 复杂 性 等 特征 "。 利 用 大 
量 数据 的 相关 性 可 取代 因果 关系 和 理论 与 模型 ， 基 于 
数据 间 的 相关 性 能 够 获得 新 知识 、 新 发 现 。 比 如 ， 星 
在 1609 年 ， 第 谷 : 布 拉 赫 的 助手 约 输 尼斯 - 开 普 勒 从 布 
拉 赫 对 天 体 运 动 的 系数 观察 记录 中 发 现 了 行星 运动 定 
律 ， 并 发 表 了 伟大 的 著作 《新 天 文学 》; 又 如 ， 欧 洲 大 
型 强 子 对 撞 机 帮助 物理 学 家 检验 关于 不 同 粒 子 物 理 和 高 
能 物理 理论 的 猜想 ， 并 且 确 定 了 希 格 斯 玻 色 子 的 存在 ; 
再 如 ， 大 数据 使 基因 组 学 的 科学 发 现成 为 可 能 ; 还 如 ， 
时 空 大 数据 在 全 球 环境 研究 变化 中 正 发 挥 重 大 作用 。 

越 来 越 多 的 科学 发 现 证 明 ， 大 科学 装置 是 人 类 认识 
自然 世界 的 重要 手段 。 对 地 观测 卫星 、 大 型 望远镜 、 大 
型 强 子 对 撞 机 、 高 通 量 科 学 仪器 、 传 感 咒 网络 等 一 系列 
大 装置 的 成 功 运行 ， 使 得 科学 大 数据 与 大 装置 和 大 科学 
间 的 关系 越发 密切 。 近 年 来 ， 我 国 的 大 装置 诸如 500m H 
径 球 面 射电 望远镜 、 系 列 空 间 科学 卫星 等 的 问世 ， 为 通 
过 科学 大 数据 认 知 大 自然 提供 了 强大 的 基础 。 为 满足 庞 
大 生日 益 快速 增长 的 科学 大 数据 的 应 用 需求 ， 迫 切 需 要 
建立 一 些 能 够 共享 数据 、 算 法 、 模 型 的 开放 系统 ， 以 此 
实现 对 已 有 数据 的 科学 分 析 和 集成 应 用 。 一 个 典型 的 例 
子 是 ，2017 年 10 月， 欧洲 航天 局 “哨兵 -3P” 卫 星 发 射 
后 ， 每 天 获取 近 2 000 万 条 空气 污染 物 及 气体 的 观测 数 
据 ， 其 数据 获取 量 是 前 期 任务 的 10 倍 以 上 。 按 照 目前 的 
处 理 速度 ， 一 台 计 算 机 需要 1200 年 才能 处 理 完 300 万 景 
全 球 卫星 影像 。 而 基于 云 计 算 设 施 ， 可 在 45 天 内 完成 相 
同 处 理 任务 ， 足 见 重大 基础 设施 的 重要 性 ""。 
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真正 实现 科学 大 数据 的 大 价值 尚 面临 着 一 系列 技术 
挑战 。 在 数据 规模 、 数 据 增 速 、 数 据 类 型 、 数 据 质量 、 
数据 价值 等 方面 给 科学 大 数据 人 处理 技术 与 方法 提出 了 新 
的 科学 技术 问题 和 方向 。 

以 上 主要 体现 在 5 个 方面 : 中 数据 存储 管理 方面 。 
科学 大 数据 本 身 固 有 的 特征 或 待 面向 海量 、 非 结构 化 或 
半 结 构 化 数据 高 效 存储 管理 的 数据 库 。(C2) 数据 分 析 方 法 
方面 。 数 据 产 生 和 数据 分 析 过 程 的 分 离 使 得 数据 噪声 增 
多 ， 问 题 驱动 的 研究 方式 逐渐 被 数据 驱动 的 研究 方式 所 
RE. O 模型 和 算法 方面 。 随 着 半 结 构 化 、 非 结构 化 数 
据 比重 的 逐渐 增多 ， 针 对 该 类 数据 的 特征 学 习 方 法 逐渐 
超越 并 取代 传统 的 数据 模型 和 算法 。@@ 计算 体系 结构 方 
面 。 新 型 存储 器 件 和 计算 器 件 不 断 涌现 ， 使 得 通用 处 理 
器 和 单一 体系 结构 的 单机 逐渐 过 渡 为 专用 处 理 器 、 多 核 
和 分 布 式 大 规模 异 构 集 群 。@@ 计算 和 服务 方面 。 以 互联 
网 为 媒介 的 云 计 算 模式 和 分 布 式 高 性 能 数据 中 心 逐渐 成 
为 大 数据 处 理 的 新 型 模式 中 。 

中 国 科学 院 正在 开展 科学 大 数据 研究 的 一 些 实践 。 
如 正在 进行 的 中 国 科学 院 战略 性 先导 科技 专项 ( A 类 ) 
“地 球 大 数据 科学 工程 ”， 地 球 大 数据 是 一 种 典型 的 科 
学 大 数据 ， 是 具有 空间 属性 的 地 球 科学 大 数据 。 该 专项 
力求 突破 超大 规模 跨 域 分 布 式 资源 技术 瓶颈 问题 ， 有 效 
推动 地 球 大 数据 技术 创新 、 聚 合 多 时 空 数据 管理 与 关联 
融合 以 及 问题 导向 数据 挖掘 与 分 析 ， 以 达到 只 要 有 终端 
和 互联 网 ， 任 何人 在 任何 地 点 都 可 以 享受 到 地 球 大 数据 
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再 如 基于 科学 大 数据 的 研究 项 目 。 联 合 国 设立 了 一 
项 名 为 “全 球 脉动 ”的 计划 ， 其 使 命 之 一 是 用 大 数据 应 
对 气候 挑战 。2014 年 ， 在 联合 国 气候 变化 峰会 召开 之 
际 , 来 自 46 个 国家 的 大 数据 应 对 气候 变化 项 目 参加 了 
奖项 竞争 “挑战 ”， 最 终 9 个 项 目 获 得 不 同 的 奖励 。 我 
们 的 “对 地 观测 大 数据 应 对 全 球 变化 ”研究 项 目 和 人 选 其 
中 ， 显 示 了 空间 对 地 观测 大 数据 在 气候 变化 研究 中 的 作 
用 和 价值 。 

科学 大 数据 正 深 刻 改变 传统 的 科研 模式 ， 正 驱动 现 
代 科学 研究 的 迅猛 发 展 。 科 学 大 数据 正在 为 科技 创新 带 
来 大 机 遇 。 作 为 少量 依赖 因果 关系 ， 而 主要 依靠 相关 性 
发 现 新 知识 的 新 模式 ， 科 学 大 数据 已 成 为 继 经 验 、 理 论 
和 计算 模式 之 后 的 数据 密集 型 科学 范式 的 典型 代表 。 


3 科学 大 数据 的 思考 


随 着 数据 积累 和 计算 能 力 的 提升 ， 直 接 从 大 数据 中 
获取 知识 已 经 成 为 可 能 。2013 年 9 月， 笔者 及 团队 提出 
“科学 大 数据 ”概念 ， 并 于 2014 年 1 月 以 “科学 大 数据 
与 数字 地 球 ” 为 题 发 表 于 《科学 通报 》。 我 们 认为 ， 科 
学 大 数据 与 互联 网 大 数据 、 商 业 大 数据 等 存在 本 质 属性 
和 特点 上 的 区 别 ， 具 有 自己 独特 的 科学 内 涵 和 特点 "。 

整体 看 来 ， 科 学 大 数据 具有 如 下 外 部 特征 : 从 数据 
内 容 来 讲 ， 科 学 大 数据 一 般 表 征 自然 客观 对 象 和 变化 过 
程 ; 从 数据 体 量 来 讲 ， 科 学 大 数据 在 不 同学 科 中 存在 较 
大 的 差异 ; 从 数据 增长 速率 来 讲 ， 科 学 大 数据 依 学 科 不 


提供 的 多 样 服务 ， 实 现 重 大 科学 发 现 和 一 站 式 全 方位 宏 
观 决 策 支 持 服务 的 目的 ”…。 

又 如 基于 科学 大 数据 的 国际 科学 计划 。 我 们 
于 2016 年 发 起 的 “数字 丝 路 ” ( DBAR ) 国际 计划 ， 就 是 
要 实现 大 数据 汇集 、 大 数据 服务 、 大 数据 分 析 和 大 数据 
呈现 支撑 ， 形 成 “一 带 一 路 ”科学 大 数据 平台 。 这 个 为 
期 10 年 的 科学 计划 ， 将 为 “一 带 一 路 ”可 持续 发 展 、 粮 
食 安全 、 生 态 环境 保护 、 气 候 变化 监测 、 灾 害 风 险 应 对 ， 
以 及 文化 一 自然 遗产 保护 与 发 展 等 提供 科学 决策 。 
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同 其 数据 增长 速率 也 变化 较 大 ; 从 数据 获取 手段 来 讲 ， 
科学 大 数据 一 般 来 自 观测 和 实验 的 记录 以 及 后 续 加 工 ; 
从 数据 分 析 手 段 来 讲 ， 科 学 大 数据 的 知识 发 现 一 般 需 要 
萌 助 科学 原理 模型 。 

通过 归纳 科学 大 数据 的 外 部 特征 ， 其 内 部 特征 也 
变 得 相对 清晰 ， 主 要 概括 为 : 数据 内 容 的 不 可 重复 性 。 
正如 哲学 家 赫 拉 克利 特 的 名 言 “ 人 不 能 两 次 踏 进 同一 条 
河流 ”， 对 于 一 般 自 然 与 物理 的 客观 过 程 的 观测 具有 一 
定 的 不 可 重复 性 。 数 据 的 高 度 不 确定 性 。 由 于 采用 的 直 
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接 或 非 直接 观测 方式 、 采 样 手段 和 记录 技术 ， 往 往 引 入 
系统 观测 误差 及 数据 记录 误差 。 数 据 的 高 维特 性 。 由 于 
观测 对 象 和 采样 方法 本 身 的 时 间 、 空 间 属 性 以 及 观测 传 
感 顺 的 多 通道 特征 ， 科 学 大 数据 往往 具有 时 空 连续 性 和 
谱 段 多 维 性 ， 导 致 维 数 灾难 。 数 据 分 析 的 高 度 计算 复杂 
性 。 数 据 的 高 度 不 确定 性 、 高 维特 性 ， 以 及 与 科学 数据 
分 析 相 伴随 的 原理 模型 的 复杂 性 ， 导 致 了 科学 数据 处 理 
分 析 的 计算 复杂 性 。 总 之 ， 科 学 大 数据 具有 不 同 于 一 般 
大 数据 的 特征 ， 其 内 在 机 理 及 如 何 应 用 于 知识 发 现 需 深 
入 研究 中。 

2014 年 6 月 ,在 我 们 的 倡议 和 主持 下 ，“ 国 际 科学 
计划 大 数据 研讨 会 :挑战 与 机 过 ”在 北京 召开 。 该 会 议 
由 国际 科学 和 技术 数据 委员 会 ( CODATA ) 主办 ,7 个 国 
际 组 织 共 同 主办 。 会 议 发 表 的 声明 强调 科学 研究 要 加 强 
对 大 数据 的 理解 ， 通 过 发 展 与 大 数据 有 关 的 研究 、 政 策 
和 框架 来 强化 国际 大 数据 科学 合作 ， 促 进 社 会 发 展 。 尽 
管 这 在 当时 只 是 一 个 起 点 ， 但 这 份 声明 是 人 们 关注 大 数 
据 潜 力 迈 出 的 实质 性 一 步 。 声 明 要 点 包括 : 响应 大 数据 
对 国际 科学 计划 的 重要 性 ; 开发 大 数据 为 社会 服务 的 潜 
力 ; 通过 国际 合作 来 增进 对 大 数据 的 理解 ， 通 过 全 球 研 
究 基 础 设施 促进 大 数据 的 普及 ; 探索 和 应 对 大 数据 管理 
工作 带 来 的 挑战 ;鼓励 大 数据 科学 能 力 建设 ; 促进 政策 
制定 ， 最 大 限度 地 利用 大 数据 。 

自 那 时 起 ， 我 们 主办 或 共同 主办 了 一 系列 关于 科 
学 大 数据 的 会 议 ， 其 中 包括 “科学 大 数据 前 沿 香山 科学 
会 议 ”“ 中 国 科学 院 学 部 空间 地 球 大 数据 科学 与 技术 前 
沿 论 坛 ”“ 自 然 科 学 与 人 文科 学 大 数据 前 沿 探 索 圆桌 会 
议 ”“ 地 球 大 数据 香山 科学 会 议 ” 等 。 有 关 部 门 和 单位 
相 续 组 织 召 开 了 不 同 的 与 科学 大 数据 有 关 的 会 议 ， 进 行 
深入 人 研讨 。 

特别 重要 的 是 ， 在 中 国 科学 院 的 组 织 下 ， 我 们 提出 
发 展 “ 科 学 大 数据 ”的 建议 ， 上 报 后 受到 政府 的 重视 。 
2015 年 《国务 院 关 于 印发 促进 大 数据 发 展 行动 纲要 的 通 
知 》 中 把 科学 大 数据 作为 纲要 的 一 部 分 ， 提 出 “发 展 科 
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学 大 数据 : 积极 推动 由 国家 公共 财政 支持 的 公益 性 科研 
活动 获取 和 产生 的 科学 数据 逐步 开放 共享 ， 构 建 科学 大 
数据 国家 重大 基础 设施 ， 实 现 对 国家 重要 科技 数据 的 权 
威 汇集 、 长 期 保存 、 集 成 管理 和 全 面 共享 。 面 向 经 济 社 
会 发 展 需 求 ， 发 展 科 学 大 数据 应 用 服务 中 心 ， 支 持 解决 
经 济 社会 发 展 和 国家 安全 重大 问题 ”"”。 

科学 大 数据 是 国家 大 数据 战略 的 有 机 组 成 ， 这 使 得 
深入 开展 科学 大 数据 的 研究 具备 了 良好 的 政策 文 撑 和 理 
论 基 础 。 科 学 大 数据 是 国家 大 数据 战略 的 基石 ， 科 技 界 
和 科学 家 肩负 重大 的 使 命 一 一 推进 科学 大 数据 的 全 面 系 
统 发 展 。 


4 发 展 科 学 大 数据 的 建议 


全 球 范围 内 大 数据 蓬勃 发 展 ， 我 国正 在 实施 国家 大 

数据 战略 ， 科 学 大 数据 已 成 为 大 数据 国家 战略 的 重要 组 
成 部 分 。 在 习近平 总 书记 对 实施 国家 大 数据 战略 提出 更 
高 要 求 的 大 背景 下 ， 国 务 院 办 公 厅 2018 年 3 月 又 发 布 了 
《科学 数据 管理 办 法 》。 我 们 迎 来 了 发 展 科 学 大 数据 的 
重要 的 历史 机 遇 。 为 更 好 地 推动 科学 大 数据 发 展 ， 有 以 
下 4 点 建议 。 
(1) 科学 认 知 大 数据 世界 的 科学 大 数据 。 大 数据 
世界 的 科学 大 数据 具有 独到 的 特点 ， 科 学 大 数据 提供 了 
创新 的 科研 方法 论 ， 科 学 大 数据 是 驱动 科学 发 现 的 新 引 
擎 ， 科 学 大 数据 是 占领 未 来 科学 制高点 的 前 沿 领域 ， 科 
学 大 数据 为 人 类 认识 世界 提供 了 全 新 的 思维 ， 科 学 大 
数据 是 孕育 新 型 科学 家 的 摇篮 。 目 前 ， 我 国 的 计算 机 
用 户 数 全 球 第 一 ， 互 联网 用 户 数 全 球 第 一 ， 移 动 互联 网 
用 户 数 全 球 第 一 ， 我 国 拥有 的 数据 量 未 来 几 年 有 可 能 达 
到 20%， 我 国 发 表 的 大 数据 论文 数目 前 国际 排名 第 二 。 
我 国政 府 对 大 数据 高 度 重视 ， 我 国 的 大 数据 在 国际 上 有 
较 高 的 话语 权 ， 为 在 此 基础 上 开展 的 科学 大 数据 研究 走 
向 国际 前 沿 奠定 了 坚实 基础 。 

(2) 建设 科学 大 数据 国家 重大 基础 设施 。 大 装置 
产 出 大 数据 ， 大 数据 孕育 大 科学 ， 大 科学 驱动 大 发 现 ， 


让 
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国家 统一 布局 建设 科学 大 数据 国家 重大 基础 设施 十 分 重 


要 。 其 意义 包括 保证 科学 大 数据 的 获取 与 更 新 、 权 威 汇 
集 与 高 效 处 理 ， 实 现 对 重要 科技 数据 的 长 期 保存 和 集成 
管理 。 同 时 ， 科 研 活动 过 程 中 产生 的 海量 科学 数据 需要 
通过 网 络 给 科学 家 们 进行 分 析 和 处 理 ， 但 海量 数据 的 共 


享 和 传输 过 程 ， 


在 当前 的 网 络 信息 安全 环境 和 条 件 下 ， 
导致 科研 数据 传输 的 效率 低下 ， 影 响 科 学 发 现 的 质量 。 


进行 科学 大 数据 的 收集 、 存 储 、 维 护 、 管 理 、 分 析 和 共 
享 等 核心 技术 需要 重大 基础 设施 的 支撑 。 

(3) 建立 国家 科学 大 数据 研究 中 心 。 我 国 目前 有 数 
十 个 大 科学 装置 、 数 百 个 国家 重点 实验 室 、 大 量 的 部 门 重 
点 实验 室 ， 正 在 建设 国家 实验 室 。 这 些 应 是 科学 大 数据 首 


先 “ 发 力 ” 的 地 方 。 建 


立 科 学 大 数据 中 心 ， 服 务 于 不 同 领 


域 科研 机 构 。 可 设立 不 同 科 学 领域 中 心 ， 如 生命 大 数据 中 
心 、 地 球 大 数据 中 心 、 天 文大 数据 中 心 等 ， 开 拓 诸 如 生物 
信息 学 、 地 球 信息 学 、 天 文 信息 学 等 相应 的 学 科 领 域 ; 也 
可 设立 不 同 区 域 科学 大 数据 中 心 。 考 虑 到 中 国 科学 院 的 国 


家 定位 ， 


建议 依托 中 国 


心 。 同 时 ， 科 学 大 数据 


科学 院 建立 国家 科学 大 数据 研究 中 
能 否 顺利 发 展 的 关键 之 一 是 数据 共 


享 ， 应 实施 可 持续 发 展 的 科学 数据 共享 ， 包 括 重视 科学 数 
据 出 版 这 种 新 的 数据 集成 与 开放 共享 机 制 。 
(4) 发 起 科学 大 数据 国际 论坛 与 国际 联盟 。 提 高 科 


学 大 数据 在 实践 应 用 中 


方法 论 、 理 论 基础 和 技术 研究 ， 


开展 双边 或 多 边 的 国际 交流 与 合作 是 提高 科学 大 数据 研究 
水 平 的 重要 途径 之 一 。 国 际 科学 论坛 是 保障 以 上 实施 的 重 


要 平台 ， 


有 利于 开展 前 


沿 理论 的 探讨 ， 有 利于 加 强 与 国际 


科技 组 织 及 国际 科学 计划 的 协作 ， 以 汇集 更 多 领域 、 更 多 
学 科 的 专家 力量 ,保持 优良 的 国际 科技 合作 环境 。 同 时 ， 


应 考虑 建立 国际 科学 大 数据 联盟 。 例 如 ， 面 向 “一 带 一 
路 ”倡议 ， 构 建 大 数据 联盟 。 以 科学 大 数据 为 抓 手 ， 让 大 
数据 成 为 “一 带 一 路 ”建设 的 一 个 引擎 ， 让 大 数据 成 为 各 


国共 建 的 和 平 使 者 ， 让 大 数据 之 光 普 照 现在 和 未 来 。 


致谢 ” 梁 栋 同志 为 本 文 做 了 大 量 工作 ， 特 此 感谢 。 
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Scientific Big Data—A Footstone of National Strategy for Big Data 


GUO Huadong 
( Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China ) 

Abstract Big data occupies the strategic high ground in the era of knowledge economies and also constitutes a new national and global 
strategic resource. It is a new pattern for scientific discovery with less dependence on causality and heavy dependence on data correlation. It has 
become a data-intensive scientific paradigm, following previous paradigms of empirical, theoretical and computational science. The paradigm 
has shifted the methodology of scientific research from theories and models based on causal analysis to comprehensive mechanistic scientific 
discovery including correlation analysis. As a branch of big data, scientific big data includes internal characteristics such as non-repeatability, 
high uncertainty, high dimensionality, and computational complexity. External characteristics include data type, data volume, data acquisition, 
and data analysis. All these characteristics bring new challenges for the techniques and methods of processing scientific big data. On the basis of 
the above analysis, we raise four recommendations: scientific cognition of scientific big data, construction of scientific big data infrastructure, 
establishment of a scientific data research center, and the structuring of a scientific big data academic platform. 


Keywords big data, scientific big data, big earth data, data-intensive science 
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